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摘 要 : 密码 是 数据 加 密 和 用 户 认 证 的 普遍 方式 ， 用 户 设置 的 密码 并 不 完全 是 随机 性 的 ， 因 此 很 容易 受到 密码 破解 
工具 的 攻击 。 使 用 密码 猜测 算法 是 评估 用 户 密码 强度 和 安全 性 的 有 效 方 法 ， 提 出 一 种 基于 条 件 变 分 自 编 码 密码 猜测 
算法 PassCVAE。 本 算法 基于 条 件 变 分 自 编码 模型 ， 将 用 户 个 人 信息 作为 条 件 特征 ， 训 练 密码 攻击 模型 。 在 编码 器 
端 ， 分 别 使 用 双向 GRU 循环 神经 网 络 和 TextCNN 文本 卷 积 神经 网 络 ， 实 现 对 密码 序列 和 用 户 个 人 信息 的 编码 和 特 
征 的 抽象 提取 ; 在 解码 器 端 使 用 两 层 GRU 和 神经 网 络 ， 实 现 对 用 户 个 人 信息 和 密码 数据 隐 编 码 的 解码 ， 生 成 密码 序 
列 。 本 算法 可 以 有 效 地 拟 合 密码 数据 的 分 布 和 字符 组 合 规律 ， 生 成 高 质量 的 猜测 密码 数据 。 多 组 实验 结果 表明 ， 提 
出 的 PassCVAE 算法 优 于 现 有 的 主流 密码 猜测 算法 
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Abstract: Passwords are universal methods for data encryption and user authentication. The passwords set by users are not 
completely random. Therefore, the passwords are easily guessed and attacked by password crackers. Using a password 
guessing algorithm is an effective way to assess the strength and security of a password. This paper proposes PassCVAE 
based on conditional variation auto-encoding (CVAE) model. The algorithm take users personal information as the 
conditional feature to train the password attack model. For the encoder, bidirectional GRU recurrent neural network and 
Text Convolution Neural Network (TextCNN) are used to extract the feature of the password Sequence and personal 
information Abstract: y. The decoder uses two layers of GRU neural network to generate a password sequence based on the 
corresponding feature of personal information and hidden coding of password. The algorithm can effectively fit the 
distribution of password data, learn character combination rules and generate high-quality password guessing data. Multiple 
sets of experiments show that the proposed PassCVAE is better than the existing password guessing algorithms. 
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献 [2] 提 出 了 新 的 基于 马尔 可 夫 模 型 的 密码 破解 器 ， 显著 提高 


中 ， 副 瑟 了 现 有 算法 的 猜测 速度 。 文献 [3] 提 出 一 种 最 高 概率 顺序 生成 
随 着 移动 互联 网 技术 的 快速 发 展 和 广泛 普及 ， 越 来 越 多 ”密码 结构 的 方法 ， 首 先 根 据 已 有 的 公开 数据 集训 练 自动 创建 
的 用 户 通过 移动 终端 学 习 、 工 作 和 娱乐 。 有 效 、 安 全 的 用 户 ” 上 下 文 无 关 的 语法 ， 然 后 根据 学 习 到 的 语法 ， 生 成 单词 修改 
身份 验证 对 网 络 信息 安全 和 用 户 隐私 数据 保护 至 关 重 要 。 虽 ” 规则， 用 于 生成 猜测 的 密码 。 但 是 这 些 传统 的 统计 方法 无 法 
然 有 最 新 提出 的 指纹 密码 识别 、 人 脸 识 别 等 技术 ,但 是 用 户 ” ”准确 地 学 习 到 用 户 的 密码 设置 习惯 ， 同 时 需要 耗费 大 量 的 计 
密码 仍 是 最 普遍 的 认证 方式 ， 主 要 是 因为 实现 操作 简单 、 用 算 资 源 和 时 间 代 价 ， 因 此 不 适合 实时 密码 强度 评估 。 而 且 大 
户 体验 良好 和 软件 系统 开发 代价 较 小 。 不 幸 的 是 ， 多 个 密码 ”部 分 现 有 的 密码 安全 性 检测 算法 ， 只 考虑 了 密码 数据 集中 字 
数据 库 泄露 表明 用 户 倾 向 选择 容易 猜 到 的 密码 ， 主 要 由 常见 。 符 放 入 的 概率 分 布 ， 并 没有 把 用 户 个 人 信息 (如 邮箱 、 用 户 
的 字符 串 和 数字 组 成 ， 并 且 有 不 少 密码 创建 规则 中 包含 多 种 。 名 等 ) 纳入 特征 作为 条 件 ， 而 这 些 个 人 信息 往往 与 密码 有 很 
多 样 的 个 人 信息 组 合 方式 ,所 以 容易 受到 密码 破译 算法 攻击 。 ” 强 的 相关 性 。 
天 此 确认 用 户 密 码 设 置 是 否 安全 ， 是 一 个 十 分 重要 的 安全 问 近年 来 深度 学 习 [*5 在 人 工 智 能 领域 取得 显著 成 就 。 深度 
题 ， 主 动 在 线 密码 猜测 检测 技术 和 常常 用 于 评估 密码 强度 。 许 学 习 可 以 对 抽象 特征 进行 提取 ， 并 且 拥 有 对 高 维 数据 强大 的 
多 学 者 提出 ， 基 于 概率 统计 模型 的 在 线 密码 猜测 算法 ， 来 验 。 ” 拟 合 的 能 力 ， 也 被 证 明 在 序列 生成 任务 571 中 非常 有 效 ， 本 文 
证 用 户 密码 的 安全 性 。 文 献 [1] 对 大 量 概率 密码 模型 进行 了 系 ” 利用 深度 学 习 中 条 件 变 分 自 编码 (conditional variational 
统 的 评估 ， 包 括 使 用 多 种 归 一 化 和 平滑 的 马尔 可 夫 模 型 。 文 。” autoencoders，CVAE) 技 术 ， 将 用 户 个 人 信息 作为 密码 生成 条 


收 稿 日 期 : 2018-08-12; 修 回 日 期 : 2018-10-17 基金 项 目 : 国家 教育 部 人 文 社会 科学 研究 青年 基金 资助 项 目 (13YJC860006); 国家 自然 科学 基金 
资助 项 目 (61170112，61532006); 北京 市 自然 科学 基金 资助 项 目 (4172016) 

作者 简介 : 段 大 高 〈1976-)， 男 ， 湖 南 新 邵 人 ， 副 教授 ， 博 士 ， 主 要 研究 方向 为 多 媒体 、 数 据 挖 据 〈duandg@th.btbu.edu.cn); 赵 振 东 (1990-)， 男 ， 
河南 安阳 人 人， 硕士 研究 生 ， 主 要 研究 方向 为 数据 挖 据 ; 梁 少 虎 〈1992-)， 男 ， 河 南 南 阳 人 ， 硕 士 研究 生 ， 主 要 研究 方向 为 数据 挖掘; 韩 忠明 (1972-)， 
男 ， 山 西 太 原 人 ， 副 教授 ， 博 士 ， 主 要 研究 方向 为 数据 挖 据 . 


201901.00030v1 


chinaXiv 


ChinaXiv 合 作 期 刊 
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件 来 实现 密码 猜测 任务 ， 提 出 Po 密码 攻击 算法 ， 通 1(0:0 =_KL(go (EO p(E) + Bo llog palx|a)] a) 

过 与 多 种 现 有 模型 在 大 规模 数据 集 上 进行 对 比 实验 ， 结 果 表 

明 本 文 所 提出 的 PassCVAE 算法 ， 性 能 优 于 现 有 传统 密码 猜 ER ed i 

测 模型 ， 可 以 更 好 地 拟 合 数据 分 布 ， 牛 成 质量 更 高 的 猜测 窗 Bj, [log po(x| 引 代表 解码 器 po(x|z) 对 数据 样本 的 重 构 损 

码 序列 。 失 ， 模 型 的 解码 器 学 习 目 标 是 尽量 还 原 真 实数 据 。 

1 ”相关 工作 条 件 变 分 自 编 码 (CVAE)P020 是 变 分 We 

版 本 扩展 ，VAE 无 法 控制 数据 的 生成 过 程 ，CVAE 通过 给 模 

最 简单 的 密码 攻击 方法 是 暴力 破解 ， 即 对 所 有 可 能 组 合 型 加 上 生成 条 件 ， 可 以 生成 特定 条 件 下 的 生成 数据 。 ns 

进行 彻底 搜索 。 由 于 这 种 攻击 方式 所 需 的 时 间 代 价 过 于 高 ， 数 如 式 (2) 所 示 ， 其 中 y 是 条 件 变 量 ， 解 码 器 会 在 条 件 下 生 

对 此 一 般 来 说 都 是 不 可 行 的 。 作 为 暴力 破解 的 改进 ， 字 典 攻 成 特定 的 数据 。 在 本 文 密码 猜测 模型 中 取 生 成 条 件 y 为 用 户 

击 逐 一 尝试 用 户 自 定义 词典 中 的 可 能 密码 (单词 或 短语 )。 与 的 个 人 信息 ， 包 括 用 户 名 、 邮 箱 地 址 和 电话 号 码 等 。 

暴力 破解 的 不 同 , 暴力 破解 会 逐一 尝试 所 有 可 能 的 组 合 密 码 ， a 可 _ 

而 字典 式 攻击 会 使 用 一 个 预先 定义 好 的 单词 列表 (可 能 的 窗 A ee i 

码 )。 虽然 有 时 这 种 简单 的 密码 攻击 方法 可 能 会 奏效 , 但 仍然 2.2 密码 攻击 模型 

会 有 大 量 不 是 基于 已 有 字典 的 密码 组 合 会 被 遗漏 ， 也 不 能 准 模型 整体 框架 如 图 1 所 示 ， 编 码 器 (zh,y) 由 一 个 两 层 

确 地 利用 用 户 密码 习惯 的 设置 规则 。 为 了 解决 这 个 问题 ， 很 双向 的 GRU 和 一 个 CNN 卷 积 网 络 两 部 分 组 成 ，GRU 编码 

多 学 者 将 机 器 学 习 引 入 密码 猜测 攻击 模型 中 ， 以 便 更 好 地 识 器 用 来 对 用 户 密 码 序列 进行 编码 , CNN 编码 器 用 来 对 用 户 个 

别 概率 较 高 的 密码 字符 组 合 和 学 习 到 密码 文本 数据 的 合理 分 人 信息 进行 编码 。 

布 。 文献 [8] 提 出 TarGuess 密码 攻击 框架 , 借助 上 下 文 无 关 文 

法 模型 ， 建 立 了 针对 用 户 个 人 信息 的 文法 自 适应 规则 ， 利 用 rr 

贝 叶 斯 优化 方法 取得 了 一 定 的 研究 成 果 。 文献 [9] 借 用 多 层 循 2 

环 神经 网 络 LSTM0U020 实 现 概 率 语 言 模型 ， 用 以 生成 猜测 密 小 一 

码 ， 也 取得 了 不 错 的 攻击 效果 。 文 献 [12] 将 马尔 可 夫 模型 引 > UN 

入 字典 攻击 ， 显 著 减少 了 密码 搜索 空间 ， 并 提出 了 高 效 枚 举 ™ 省 

剩余 密码 空间 算法 。 文 献 [13] 利 用 语法 和 语义 标签 构建 上 下 Hl J 

文 无 关 模 型 ， 捕 获 密码 样本 的 语义 本 质 。 文 献 [1 和 针对 中 文 一 

密码 ， 在 上 下 文 无 关 文 法 模型 中 添加 了 拼音 规则 ， 提 升 了 算 图 1 密码 攻击 模型 示意 图 

法 效果 。 文 献 [15] 通 过 统计 分 析 7000 万 雅虎 匿名 密码 数据 集 ， Fig.1 The overview of password cracking algorithm 

提出 新 的 评价 指标 代 蔡 香农 炉 和 猜测 炉 。 文 献 [16] 提 出 了 使 如 式 (3) 所 示 ，*% 是 用 户 的 密码 序列 ， BiGRU 表示 双 问 

用 马尔 可 夫 模 型 的 自 适 应 密码 强度 评价 规则 ， 大 大 提高 了 密 GRU 循环 神经 网 络 , 取 其 最 后 时 刻 输出 状态 经 过 两 个 全 连 

码 强 度 估计 的 准确 性 。 文 献 [17] 基 于 蒙特 卡 洛 方法 ， 提 出 了 接 层 生成 4 和 sa ( 式 (4) (5))。 在 式 (6) 中 randn 代表 从 标准 

一 种 新 方法 来 使 用 现代 攻击 方法 需要 的 猜测 次 数 ， 算 法 具有 正 态 分 布 中 采样 出 与 4 同 维度 的 随机 向 量 ， 经 过 重 参数 化 后 

所 用 资源 少 、 易 收敛 等 优点 。 文 献 [18] 基 于 暴力 马尔 可 夫 得 到 中 间 编 码 z* 。 式 (7) 中 8 是 用 户 个 人 信息 上 下 文 数据 ， 

(BFM)， 测 量 密码 强度 ，BFM 是 暴力 破解 和 n-gram 模型 之 8 ={ 用 户 名 ,邮箱 地 址 ,电话 号 码 }， 即 把 用 户 个 人 信息 当 作 字 

间 的 混合 体 ， 可 以 较 准确 计 算出 所 需 猜测 次 数 。 文 献 [19] 提 符 串 串联 起 来 ， 经 过 CNN 卷 积 网 络 对 其 编码 生成 条 件 编码 

出 了 一 种 基于 对 抗 神经 网 络 来 增强 密码 生成 的 PassGAN 新 向 量 ”。 式 (8) 将 中 间 编 码 * 与 条 件 编 码 拼接 在 一 起 形成 最 

方法 , 通过 现 有 的 泄露 密码 数据 , 训练 出 一 个 对 抗 生 成 网 络 ， 终 隐 编码 z 。 

PassGAN 可 以 近似 逼近 密码 训练 数据 集 分 布 情况 ， 因 此 5 = BiGRU (NA (3) 

PassGAN 可 能 匹配 出 尚未 泄露 的 密码 。 mid dd 

2 基于 变 分 自 编码 的 密码 攻击 算法 i (5) 

2.1 条 件 变 分 自 编 码 Z =Iandn.H+G (6) 
变 分 自 编码 (variational Autoencoder, VAE) 是 一 种 基于 标 y=CNN(g) (7) 

准 自 编码 模型 正则 化 版 本 的 生成 模型 。 该 模型 将 一 个 先 验 分 z=[z",y] (8) 

布 p( 引 强加 到 隐 变 量 z 上 , p(z) 是 规整 的 几何 形式 ( 常 取 标准 人 pol(x|z,y) 由 两 层 的 单 向 的 GRU 的 实现 ， 如 

高 斯 分 布 )， 使 得 模型 能 够 生成 更 接近 原始 数据 分 布 的 样本 。 式 (9) 所 示 其 每 一 个 时 刻 的 隐 状 态 都 加 入 了 隐 编 码 z 和 条 件 

变 分 自 编 码 (VABE) 将 标准 自 编码 中 的 编码 器 替换 为 学 习 得 到 编码 向 量 y， 羡 是 解码 器 网 络 生成 的 密码 猜测 序列 。 

的 后 验 识别 模型 a(zx)， 通 常用 神经 网 络 做 为 编码 器 4( 不 ) 函 h,x =GRU, [hs y, 7], xX) (9) 

数 , 参数 化 隐 变 量 z 的 后 验 分 布 使 其 逼近 强加 的 先 验 分 布 ( 标 在 训练 时 ， 通 过 标准 高 斯 先 验 分 布 ， 采 用 KL 散 度 来 控 

准 高 斯 分 布 )。VAE 模型 有 两 个 学 习 目 标 : a) 最 小 化 样本 的 重 制 编码 器 生成 的 隐 编 码 z ， 使 之 接近 先 验 高 斯 分 布 。 编 码 器 

构 损失 ; b) 最 小 化 编码 隐 变 量 z 和 标准 高 斯 分 布 的 KL 散 度 。 CNN 网 络 ， 将 用 户 的 个 人 信息 (邮箱 地 址 、 用 户 名 和 电话 号 

异型 的 损失 函数 如 式 (D) 所 示 ， 其 中 和 (9( 引 (5) 表示 zz 的 码 ) 作 为 输入 ， 生 成 用 户 的 条 件 编码 向 量 y。 最 后 将 隐 变 量 z 

先 验 分 布 p(z) 和 模型 编码 器 后 验 分 布 go( 线 ) 之 间 的 KL 散 度 ， 和 条 件 编码 向 量 > 拼接 在 一 起 作为 解码 器 初始 状态 用 以 生成 

度量 的 是 两 个 分 布 中 的 相似 度 ， 当 两 个 分 布 越 相似 时 KL 散 密码 序列 。 

度 越 小 。 当 模 型 训练 结束 后 ， 在 标准 高 斯 分 布 中 随机 采样 出 隐 变 


趣 


z ,用 解码 器 CNN 


网 络 编码 | 


j 户 个 人 信息 生成 条 件 编码 向 
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量 》。 将 隐 变 量 二 和 条 件 编码 向 量 输 入 解码 器 ， 就 可 以 生 型 有 较 明 显 的 优势 ， 表 现 出 更 好 的 性 能 。 但 由 于 12306 数据 
成 此 用 户 的 猜测 密码 序列 。 集 样 本 量 只 有 10 万 多 条 , 各 模型 的 破解 成 功率 也 不 如 CSDN 
编码 器 gy(z|x,y) 在 先 验 分 布 的 控制 下 ， 将 数据 集中 的 密 和 人 人 网 数据 集 表现 得 好 。 在 三 个 数据 集 上 ， 本 文 提 出 的 


码 序列 抽象 编码 填充 在 一 个 高 维 的 高 斯 分 布 空 间 ， 在 生成 密 。 ”PassCVAE 模型 都 取得 了 最 佳 结果 ， 也 证 明了 用 户 个 人 信息 


人 码 时 ， 通 过 在 z 的 先 验 分 布 p( 引 ) 中 采样 出 的 隐 变 量 ， 将 符合 的 条 件 伟 入 对 破解 密码 生成 的 有 效 性 。 

训练 数据 的 真实 编码 分 布 ， 结 合 条 件 编码 向 量 》Y， 以 此 来 生 表 2 12306 数据 集 破解 成 功率 

成 用 户 密码 猜测 序列 。 Table 2 Performance on 12306 test set 

2.3 算法 实现 步骤 尝试 次 数 ”PCFG OMEN PassGAN PassLSTM PassCVAE 
根据 前 面 介绍 的 条 件 变 分 自 编码 和 密码 攻击 模型 ， 课 整 1000 1.364 2.025 1.049 2.227 2.931 

理 得 到 算法 PassCVAE 的 实现 流程 ， 如 下 所 示 。 2000 1.984 2.153 L170 2.880 3.995 
算法 基于 条 件 变 分 自 编码 的 密码 攻击 算法 3000 2.355 3.515 1.706 3.394 4.696 
1: 初始 化 BiGRU。 和 CNN 编码 器 模块 参数 , 初始 化 解码 器 GRU， Ce a 2 

参数 5000 3.280 4.282 1.746 4.282 5.892 


表 3 ”CSDN 数据 集 破解 成 功率 


2: for each iteration 1=1,2,..., M do 
3 采样 一 个 密码 样本 序列 x ， 其 用 户 上 下 文 信息 为 8 Table 3 Performance on CSDN test set 
4 根据 式 G] 生 成 密码 序列 隐 状 态 序列 及 ,到 天 尝试 次 数 PCFG OMEN PassGAN PassLSTM PassCVAE 
。 et A 1000 9.067 9.272 4.107 9.327 9.497 
2000 9.752 9.533 4.639 9.605 9.960 
6: 根据 式 (6) 得 到 密码 序列 编码 隐 变 量 x 3000 10.002 -9.971 5.093 10.253 10.382 
7 根据 式 (7) 得 到 用 户 上 下 文 特征 变量 4000 10.195 10.074 5.621 10.480 10.978 
8: 根据 式 (8) 生 成 最 终 隐 变量 z 5000 10.377 10.287 5.858 10.791 11.226 
9 根据 式 (9) 得 到 生成 密码 序列 x 表 4 人 人 网 数据 集 破解 成 功率 
10: ”计算 BiGRU,, CNN 和 GRU 模块 的 梯度 Table 4 Performance on renren test set 
11: ”更 新 BiGRU,, CNN 和 GRU, 模块 的 参数 尝试 次 数 PCFG OMEN PassGAN PassLSTM PassCVAE 
12: end for 1000 11.599 10.933 7.067 11.640 11.979 
2000 13.294 11.325 7.752 13.008 13.544 
3 ”实验 与 分 析 3000 14.184 12.757 8.273 14.160 14.372 
3.1 数据 集 4000 14.485 13.466 8.990 14.316 14.808 
本 文 实验 评估 数据 集 由 三 个 大 型 真实 密码 数据 集 构成 ， 5000 14.990 13.949 9.103 14.677 15.254 
数据 集 主要 黑客 攻击 或 者 内 部 人 员 泄 露 并 且 已 在 互联 网 上 可 在 相同 的 破解 次 数 下 ， 对 不 同 数据 集 实验 结果 如 表 5~9 
以 公开 获取 。 数 据 集 具 体 描述 如 表 1 所 示 。 所 示 。 可 以 看 出 来 在 不 同 的 破解 次 数 的 条 件 下 ， 本 文 提出 的 
表 1 实验 数据 集 PassCVAE 都 取得 了 较 好 的 结果 。 由 于 破解 次 数 的 增加 ， 减 
Tabel 1 Summary of datasets 少 了 生成 破解 的 密码 的 随机 性 PassCVAE 也 会 比 其 他 对 比 算 
数据 集 训练 集 样 木 最 测试 集 样本 量 每 条 记录 所 包含 信息 法 表现 的 更 加 有 优势 ， 具 有 更 高 的 破解 成 功率 。 
12306 104400 27253 密码， 邮箱 ， 电 话 ， 身 份 证 号 ， 姓 名 表 5 不 同 数据 1000 尝试 次 数 破解 成 功率 
CSDN 621356 98700 密码 ， 户 名 ， 邮 箱 Table 5 Performance on 1000 times 
人 人 网 ”476860 39476 密码 ， 邮 箱 数据 集 PCFG OMEN PassGAN PassLSTM PassCVAE 
12306 是 中 文 互联 网 火车 票 订 票 平台 泄露 的 密码 数据 ， “USE 
中 包含 较 完 整 的 用 户 个 人 信息 如 用 户 邮箱 、 电 话 、 身 份 证 人 60 03 007 40 9 


号 、 姓 名 (拼音 字母 )。CSDN 是 IT 社 区 平台 泄露 的 用 户 密 码 


本 全 表 6 不 同 数据 2000 尝试 次 数 破解 成 功率 
数据 ， 包 含 密码 、 用 户 名 和 邮箱 信息 。 人 人 网 数据 是 中 文 社 ee 


Table6 Performance on 2000 times 


人 世人 的 用 户 密 码 数据 ， 包 含 密码 、 邮 箱 信息 。 数据 集 PCFG OMEN PassGAN PassLSTM PassCVAE 

3.2 实验 设置 12306 1.984 2.153 1.170 2.880 3.995 
为 验证 方法 有 效 性 ,本 文选 择 四 种 密码 猜测 算法 作 比 较 ， CSDN 9752 9.533 4.639 9.605 9.960 

分 别 是 PCFGB1，OMEND,PassGANI7 和 PassLSTM。 其 中 人 人 网 13.294 11.325 7.752 13.008 13.544 

PCFC 和 OMEN 是 基于 传统 的 统计 方法 , PassGAN 采用 深度 表 7 不 同 数据 3000 尝试 次 数 破解 成 功率 

学 习 中 的 生成 对 抗 网 络 实现 ，PassLSTM 基于 LSTM 循环 神 Table 7 Performance on 3000 times 

经 网 络 的 语言 模型 。 数据 集 PCFG OMEN PassGAN PassLSTM PassCVAE 
实验 模型 分 别 根据 实验 数据 集训 练 样本 训练 出 密码 生成 12306 2.355 3.515 1.706 3.394 4.696 

模型 ， 在 测试 集中 规定 每 个 密码 的 破解 尝试 次 数 不 超 过 限定 CSDN 10.002 9.971 5.093 10.253 10.382 

次 数 ， 即 在 1000、2000、3000、4000 和 5000 次 尝试 以 内 破 人 人 网 ”14.184 ”12.757 8.273 14.160 14.372 

解 成 功 视 为 模型 攻击 成 功 ， 计 算 过 程 如 式 (10)~(12) 所 示 。 在 表 8 不 同 数据 4000 尝试 次 数 破解 成 功率 

式 (10) 中 X' = 代表 生成 的 生成 的 n 个 猜测 序列 。 分 别 统计 Table 8 Performance on 4000 times 

各 模型 在 不 同 数据 集 测试 样本 上 猜测 次 数 的 成 功率 。 实 验 结 数据 集 PCFG OMEN PassGAN PassLSTM PassCVAE 

果 如 表 2~4 所 示 。 12306 2.616 3.761 1.714 3.856 5.371 
在 12306 数据 集 当 中 ， 用 户 的 个 人 信息 较 多 ， 本 文 提 出 CSDN 10.195 10.074 5.621 10.480 10.978 

的 PassCVAE 模型 可 以 提取 出 更 多 条 件 信 息 ， 比 其 他 几 个 模 人 人 网 14.485 13.466 8.990 14.316 14.808 
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表 9 不 同 数据 5000 尝试 次 数 破解 成 功率 
Table 9 Performance on 5000 times 


数据 集 PCFG OMEN PassGAN PassLSTM PassCVAE 

12306 3.280 4.282 1.746 4.282 5.892 

CSDN 10.377 10.287 5.858 10.791 11.226 

人 人 网 14.990 13.949 9.103 14.677 15.254 
4 ”结束 语 


用 户 设 置 密码 往往 倾向 于 包含 个 人 信息 ， 而 这 种 形式 的 
密码 更 容易 被 密码 攻击 算法 猜测 到 。 本 文 基于 条 件 变 分 自 编 
码 模 型 ， 将 用 户 个 人 信息 (邮箱 地 址 、 用 户 名 、 电 话 号 码 等 
作为 条 件 特 征 ， 训 练 密码 攻击 模型 。 在 编码 器 端 ， 分 别 使 用 
双向 GRU 循环 神经 网 络 和 CNN 文本 卷 积 神经 网 络 ， 实现 对 
密码 序列 和 用 户 个 人 信息 的 编码 和 特征 的 抽象 提取 。 在 解码 
器 端 使 用 两 层 GRU 神经 网 络 ， 实 现 对 用 户 个 人 信息 和 密码 
数据 隐 编 码 的 解码 生成 密码 序列 。 模 型 可 以 有 效 地 拟 合用 户 
个 人 信息 作为 条 件 下 的 密码 序列 分 布 ， 实 验 表 明 本 文 所 提出 
PassCVAE 模型 优 于 现 有 的 主流 密码 攻击 算法 。 
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